秘笈|CCASparkandHadoop考试心得

作者：涂凌萱_TLX_9s7_140 | 来源：互联网 | 2023-09-09 22:19

CCASparkandHadoop考试编码为CCA-175，就是2016年新出的开发者考试。众多小伙伴可能因试题是纯操作题的缘故，一直都没上战场。今儿有个考生这门认证考试竟然满分通

CCA Spark and Hadoop 考试编码为CCA-175，就是2016年新出的开发者考试。众多小伙伴可能因试题是纯操作题的缘故，一直都没上战场。今儿有个考生这门认证考试竟然满分通过，觉得记录下这历史性的时刻甚是必要：一千多字的考试心得啊！要备战的筒子们，赶紧吞了这袋血条吧！

一、考试内容

总计有10题，全部为实践操作题

1> 前五题分别为(sqoop,hive)

1).sqoop-import

2).sqoop-export,

3).hive创建表，并且将已经存在于hdfs上的表导入到新建表中

4).hive创建avro类型的表

5).hive创建一个分区表，并且导入数据

2> 6-9题为spark的python 和scala解析数据题目,考试模式为哪种原始的代码题空题目，不需要考试者从头到尾的完成所有代码，只需要填充那些缺失的代码部分，基本内容为加载hdfs上的数据，解析数据，过滤数据，排序，join数据，将处理后的数据存储到 hdfs上

3> 第10题，一个排错题，提供一个有错误的脚步去调试让脚步能够正常运行，

我考的这题是一个hive的avro表，查询时报错，修改该表的schame让查询能够正常运行(仅供大家参考)

4> 小结:从考试内容来看基本都是基础知识的考察，没有考察那些技巧性的内容和比较深奥的、偏门的知识（基本将培训的习题做做熟练基本能够通过考试）

二、考试环境
可以用一个“烂”字来形容

1> 考试环境可以用一个“烂”子来形容，字体小的需要贴着屏幕看，鼠标移动有较长的延迟，执行的速度一般。

2> 考试的环境是一远程的linux环境，全部英文，没有中文。

3> 考试中可以查看hive,sqoop等相关技术文档，在页面中已经明确的给出链接地址，直接点击即可。

4> 操作时&＃8221;open in Terminal&＃8221; 即可。

三、备考心得
将培训中的习题做熟练

1> 考试中未涉及 impala 和flume的内容。

2> 熟练掌握sqoop的导入导出，指定分隔符，指定文件存储类型。

3> 熟练掌握hive的ddl,创建数据库，创建外部表，创建表时指定分隔符，指定文件存储格式，指定文件位置，创建分区表，向分区表中导入数据。

4> 熟练掌握scala,python的基本语法。

5> 熟练掌握spark的rdd的相关基本操作,map,filter,join.mapValues,keyBy,sortByKey,textFile,saveAsTextFile等操作。

6> 熟练掌握count,collect,take等操作。

7> 能够熟练的解析文本，难度以习题难度为准，我初始准备时考试准备的难度偏难（解析复杂的文本，解析复杂的xml,解析复杂的json,而且去背各种import类路径和工具方法）但是从考试内容来看完全没有必要。

8> 考试时请做好时间安排，两个小时的时间很紧张，多半不够用，一旦在考试中出现各种exception多半会崩溃。

四、独门秘笈
节省考试时间的诀窍

1> 不建议打开太多的&＃8221;open in Terminal&＃8221;,最多不要超过3个，太多切换来切换去会晕。

2> 由于为实际操作题目，执行过的代码基本不能在找回，建议使用系统中自带的&＃8221;Emacs&＃8221;编辑器,编辑代码，存储代码,在此编辑器中编写好代码后在复制到命令行中运行，如果运行出错可以在进行修改。（建议在练习时熟练掌握emacs的常规使用方式，特别是“复制”和“粘帖”操作）

《秘笈 | CCA Spark and Hadoop考试心得》

3> 使用&＃8221;emacs&＃8221;需要设置字体，系统的默认字体肉眼基本无法辨识，建议修改编辑器的字体大小

《秘笈 | CCA Spark and Hadoop考试心得》

4> 命令行的字体也可以根据需要进行设置(我未设置，直接使用默认设置)

5> 在考试过程中要充分的使用复制和粘帖操作(如相关的路径信息，帐号信息，数据库表名，字段名称)，以免自己的输入产生错误导致运行出错,而且可以节省。

五、考试成绩

考试完毕后大概30分钟后会收到邮件告知考试成绩

我考了两次：第一次由于环境的各种不熟悉和考试模式的不熟悉只做成功了5题，作为第5题时已经花去1个半小时，多半由于自己的输入失误导致出现各种错误，又由于怕代码丢失打开太多的窗口，所以在这里建议大家熟练使用emas编辑器，使用复制粘贴操作，不要打开太多的窗口。

第二次我吸取的第一次的教训大大提高了考试速度10题全部做完，顺利通过了考试。

以上内容为一点小小经验仅供参考，祝大家考试通过！

推荐阅读

hdfs
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
int
Jupyter Notebook多语言环境搭建指南

本文详细介绍了如何在Linux环境下为Jupyter Notebook配置Python、Python3、R及Go四种编程语言的环境，包括必要的软件安装和配置步骤。 ... [详细]

蜡笔小新 2024-11-20 18:37:27
int
2021年度精选：新手必知的数据分析工具指南

面对众多的数据分析工具，如何选择最适合自己的那一个？对于初学者而言，了解并掌握几种核心工具是快速入门的关键。本文将从数据处理的不同阶段出发，推荐三种广泛使用的数据分析工具。 ... [详细]

蜡笔小新 2024-11-23 19:47:22
int
龙蜥社区开发者访谈：技术生涯的三次蜕变 | 第3期

龙蜥社区的开发者们通过自己的实践和经验，推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型，分享他在龙蜥社区的成长故事。 ... [详细]

蜡笔小新 2024-11-21 11:12:28
join
Django与Python及其他Web框架的对比

本文详细介绍了Django与其他Python Web框架（如Flask和Tornado）的区别，并探讨了Django的基本使用方法及与其他语言（如PHP）的比较。 ... [详细]

蜡笔小新 2024-11-18 09:13:53
request
深入解析Dubbo：使用与源码分析

本文详细介绍了Dubbo的使用方法和源码分析，涵盖其架构设计、核心特性和调用流程。 ... [详细]

蜡笔小新 2024-11-18 03:51:49
request
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
int
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
shell
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
split
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
split
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
split
推荐引擎数据导入模块的实现

毕设做到后半部分，需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能，这样数据仓库中的数据才能和数据库中的数据同步在新建了一个PyDev项目后，需要如下操作(拣最 ... [详细]

蜡笔小新 2023-10-14 14:05:02
split
不会搭建大数据平台，我被老板优化了...

不会,搭建,大数,据,平台,我 ... [详细]

蜡笔小新 2023-10-12 16:44:49
join
数据仓库中基本概念

一、数据仓库数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合，用于支持管理人员的决策面向主题主题就是类型的意思。传统数 ... [详细]

蜡笔小新 2023-10-12 16:18:36
join
crontab 取不到环境变量

2019独角兽企业重金招聘Python工程师标准今天遇到一个问题，觉得有一些价值和大家分享一下。脚本在手动执行的情况下，没有问题，但 ... [详细]

蜡笔小新 2023-10-12 09:05:32

涂凌萱_TLX_9s7_140

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章